بیگ لو اعظم؛ داورپناه. محمدرضا (۱۳۹۵). محاسبه بار اطلاعاتی متون علمی فارسی براساس شاخص آنتروپی 


نظریه اطلاعات. پژوهش‌نامه کتابداری واطلاع‌رسانی؛ ۶ (۱ ۱۰۸- ۰۸۸ 


محاسبه بار اطلاعاتی متون علمی فارسی براساس شاخص آنتروپی نظریه اطلاعات" 


اعظم بیگ‌لو دکتر محمدرضا داورپناه" 
تاریخ دریافت: ۹۲/۶/۳۰ تاریخ پذیرش: ٩۲/۹/۲‏ 
چکیده 


هدف: هدف عمده اين پژوهش, محاسبه میزان بار اطلاعاتی واژه‌های متون علمی فارسی و بررسی رابطه برحی ویژگی‌های 
واژه و بار اطلاعات یآن برمبنای مقیا سآنتروپی شانون است. 

روش: پژوهش حاضر با روش تحلیل محتوا و در جامعه آماری شامل ۷۵۲ مقاله ب رگرفته از فهرست مجلات علمی پژوهشی در 
سال ۱۳۸۸ صورت پذیرفت. نمونه پژوهش شامل ۳۲۰ مقاله بود که با توجه به گستردگ ی آن در هر حوزه تنها ۱۰ درصد از 
مقالات به صورت تصادفی انتخاب و مورد بررسی قرا رگرفت. 

یافته‌ها: پژوهش حاضر نشان داد بار اطلاعاتی واژه با احتمال رخداد آن رابطه‌ای معکوس دارد. با افزایش تعداد حالات ممکن 
میزان پیش‌بینی‌پدیری و آنتروپی واژه افزایش يافته و اطلاعات کمتری منتقل می‌نماید. طول واژه نیز رابطه‌ای مستقیم با بار 
اطلاعات ی آن دارد. حوزه‌های مختلف علمی در میزان اطلاعاتی که انتقال می‌دهند یکسان نیستند و حوزه علوم انسانی بیشترین 
میزان آنتروپی ‏ وکمترین میزان اطلاعات را نسبت به سایر حوزه‌ها داراست. 


کلید واژه‌ها: نظر به اطلاعات, آنتروپی, بار اطلاعاتی واژه» متون علمی فارسی. 


۱ بر گرفته از پایان نامه کارشناسی ارشد 
۲ کارشناس ارشد علم اطلاعات و دانش‌شناسی دانشگاه فردوسی مشهد حطمء.انقصع ۵ صمعدمهماعزوط 


۳ استاد گروه علم اطلاعات و دانش‌شناسی دانشگاه فردوسی مشهد ۵0.26.1 طحصهم‌تد نع 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ۸٩‏ 


مقدمه 

پیشرفت روزافزون نظام‌های ذخیره و بازیابی اطلاعات و نیاز به بهینه نمودن بازیابی اطلاعات از 
مدارک متنی باعث شده است تا در سال‌های اخیر توجه گسترده‌تری معطوف به فنون و رویکردها در زمینه 
نظام‌های نمایه‌سازی خود کار شود. پیامد استفاده از نظام‌های نمایه‌سازی مبتنی بر زبان طبیعی انعکاس انواع 
کلمات در نمایه است. از آنجا که تمام واژگان در متن ارزش و بار اطلاعاتی یکسانی ندارند استفاده از 
روش‌هایی که کلمات مهم را از کلمات بی‌اهمیت تشخیص دهد همیشه در این حوزه مورد توجه بوده 
است. گروهی از واژگان زبان طبیعی (مانند حروف تعریف. حروف ربط حروف اضافه و برخی از افعال) 
سهم معنایی یا دستور زبانی بسیار پایینی دارند. به عبارت دیگر» حشو ویژگی بارز متون زبان طبیعی است 
که به منظور جل و گیری از اختلال در درک پیام متن به کار می‌رود. از سوی دیگر بسامد واژه به تنهایی» به 
منظور اختصاص کلیدواژه‌های موضوعی مدارککث چندان قابل اعتماد به نظر نمی‌رسد ( داوریناه و بلندیان؛ 
۳۶ علاوه براین اگر فرایند استخراج کلیدواژه بدون توجه به بار اطلاعاتی و وزن معنایی کلمه انجام 
پذیرد» علاوه بر حجیم شدن پایگاه واژگان نمایه» ریزش کاذب و بازیابی منابع نامرتبط نیز دور از انتظار 
نخواهد بود چرا که واژگان اطلاعی بار اطلاعاتی یکسان ندارند. درواقع هر کلمه یا ترکیب به یک میزان 
اطلاع‌دهنده ! نیستند» یعنی بسیاری از ترکیبات و کلمات نباید در نظام‌های نمایه‌سازی به عنوان واژه‌نما 
انتخاب شوند. 

بدیهی است که همه واژگان در زبان نوشتاری مقادیر یکسانی از اطلاعات را انتقال نمی‌دهند. 
ار (۱۹۵۷) نخستین کسی بود که بیان کرد واژگانی که با فراوانی بسیاری رخ می‌دهند سهم معنابی 
عمده‌ای در یک متن ندارند. علاوه بر این اين واژگان بخش بزرگی از متن» سهمی حدود ۲۰ تا ۳۰ درصد 
از نشانه‌ها در متن راء به خود اختصاص می‌دهند. از سوی دیگر تقریباً نیمی از واژگان تنها یک‌بار در یک 
پیکره متنی ‏ رخ می‌دهند؛ درحالی که بیشتر واژگان حدود ده بار با کمتر در متن ظاهر می‌شوند ( عصلعص۷]2 
۵9 ). حتی پس از استخراج سیاهه بازدارنده» واژگان بسیار زیادی باقی خواهد ماند که 
همگی به عنوان واژه‌نما قابل توجه نیستند. بنابراین لازم است با استفاده از سایر روش‌هاء سودمندی واژگان 
باقی‌مانده تعیین شود. مطالعات فراوانی در زبان انگلیسی به رتبه‌بندی اطلاع‌دهی " واژه پرداختند. منظور از 


اطلاع‌دهی واژه این است که آن واژه به چه میزان نیانگر ایده‌های کلیدی در مجموعه‌ای از مدارکک است 


1. 

مسا .2 

عناوم .3 
1010۳۳9۵۷۵۵۵5 .4 


۰ پژوهش‌نامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد سال ۶ شماره ۰۱ بهار و تابستان ۱۳۹۵ 


(2003 ,ات ک 0ر6ا100). به عبارت دیگ اطلاع‌دهی واژه نشان‌دهنده درجه و اندازه‌ای است که 
عبارت کلیدی معرف و نمایانگر مدرک در دست بررسی است» و با میزان اطلاعاتی که به کاربر منتقل 
می‌نماید همبسته است. 

تاکنون روش‌های مختلفی برای اندازه گیری بار اطلاعاتی واژه به کار گرفته شده است. از جمله 
این روش‌هاء استفاده از کمیت آنتروپی نظریه ریاضی اطلاعات " شانون" می‌باشد. این نظریه شاخه‌ای از 
نظریه آماری علوم ارتباطی است و شیوه‌ای کمی برای اندازه گیری محتوای اطلاعاتی پیام‌ها به دست 
می‌دهد. نظریه اطلاعات به طور عمده ناظر بر مسئله تعیین حداکثر ظرفیت یک کانال با یک مجرا برای 
نتقال پیام‌هاست و هدف اصلی شانون دست یافتن به شیوه‌ای بود که کارایی کانال ارتباطی را به حداکثر 
برساند (حری» ۰۱۳۸۱ ص ۲۳۲). نظریه اطلاعات با ارائه شاخصی به نام آنتروپی به اندازه گیری اطلاعات 
یک متغیر تصادفی می‌پردازد. این متغیر تصادفی می‌تواند واحدی از یک متن (حرف کلمه جمله و ...) 
تا اادم از آ شوم وان ان مزا اطاحای. کر رازه را وان سیر ادف اناد 
گرفت و کلمات با آنتروپی بالا را نادیده گرفت؛ به همین ترتیب می‌توان سیاهه‌ای از واژگان غیرمجاز 
ساخت. مطالعات نشان داده است که استفاده از شاخص آنتروپی نسبت به سایر معیارهای نحوی برای 
تشخیص و شناسایی وا ژگان کار کردی و ساخت سیاهه وا زگان غیرمجاز مفیدتر است (1997 ,۷61260). 
امروزه استفاده از شاخص آنتروپی جایگزین روش‌های نمایه‌سازی واژگان براساس آمارهای فراوانی واژه 
شده است. روش‌های مبتنی بر فراوانی سطحی هستند و مفهوم اصلی متن را منعکس نمی کنند. در حالی که 
مدل‌هایی مبتنی بر آنتروپی دقت بالایی را گرارن کردند ( من :2005 ,وهاعام٩‏ ک ودمتاعنع۱ ,وع۵ر۳ 
5 ,لا[5-ت۷۷ ). براساس آنچه گفته شدء مسئله اساسی این پژوهش آن است که برمبنای آنتروپی 
نظریه اطلاعات بار اطلاعاتی کلمات در متون علمی فارسی چگونه است؟ 


هدف‌ها و ضرورت پژوهش 
هدف اصلی این پژوهش محاسبه میزان آنتروپی متون علمی و تخصصی زبان فارسی است. سایر 
اهداف پژوهش حاضر شامل محاسبه بار اطلاعاتی واژگان متن و شناسایی واژگان کم بار اطلاعاتی 


(وا زگان غیرمجاز)؛ بررسی رابطه بار اطلاعاتی یکک واژه با احتمال رخداد تعداد حالات ممکن» طول واژه 


۷ صمتامص م1 لمعتامصصمطاه۱۷ :1 
ممصحمطفعهب 2۰ 
تصماجمن ممتاهصصملط1 .3 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ٩۱‏ 


و زمینه (حوزه) آن است. با توجه به لزوم بهبود نظام‌های بازیابی اطلاعات و نمایه‌سازی مدارک و نیز 
برخی ویژگی‌های خاص خط و زبان فارسی و نظر به آنکه در زبان فارسی کمتر به موضوع وزن‌دهی 
واژگان پرداخته شده است» لزوم پژوهشی در راستای تعیین میزان اهمیت واژه» می‌تواند در حوزه بازیابی 
اطلاعات و نظام‌های تیا سای راکفا تاشد. 


فرضیه‌های پژوهش 
. _ میزان بار اطلاعاتی واژه با احتمال رخداد آن رابطه‌ای معکوس دارد. 
۲ _ هرچه میزان آنتروپی متن بیشتر باشد میزان حضور اطلاعات در متن کمتر است. 
۳ _ هرچه تعداد حالات ممکن یک واژه کمتر باشد بار اطلاعاتی آن واژه بیشتر است. 
۴ بین طول کلمه و بار اطلاعاتی آن رابطه وجود دارد. 


میزان بار اطلاعاتی متون در حوزه‌های مختلف علمی متفاوت می‌باشد. 


ی 


پیشینه پژوهش 

محاسبه بار اطلاعاتی واژه براساس آنتروپی در پژوهش‌های بسیار و با اهداف مختلفی مورد توجه 
قرار گرفته است. کاربرد آنتروپی در تحلیل و مطالعه متون سابقه‌ای طولائی دارد. در ادامه به پژوهش‌هایی 
که میزان اطلاعات واژه را براساس آنتروپی سنجیده‌اند اشاره می کنیم. 

یکی از هدف‌های تعیین بار اطلاعاتی واژه» شناسایی واژه‌های عمومی و اختصاصی یک متن 
است؛ میزان اطلاعات و بنابراین» آنتروپی واژه‌های عمومی و تخصصی در متون یکسان نیست و این 
موضوع در پژوهش‌های بسیاری مورد بررسی قرار گرفته است. کارابالو و چارنیاک ‏ (1۹۹9) از طریق 
محاسبه میزان آنتروپی کلمات سطح احتصاصی ترفن اتسوا مورد اندازه گیری قرار دادند. نتایج نشان داد 
اسم‌هایی با آنتروپی و فراوانی بیشتر عمومی‌تر هستند و می‌توان گفت رابطه معکوسی بین فراوانی و 
محتوای معنایی یک کلمه وجود دارد. پژوهش دیگری با هدف شناسایی واژگان اختصاصیء پژوهش ریو 
ویفزی. (۲۳۸۳)انست که با برزسی اصطااات: اخطا تایه مش خویاشد آفروی با ی سار الا (۸۳ 


‌ 
درصد) به شناسایی اصطلاحات تخصصی می‌پردازد. نمیروفسکی و دوبراینین (۲۰۰۸) به بررسی اهمیت 


کلحتصمط ع مللوطاهتمن .1 
6011007 .2 

تم ک 5 .3 

4 7 

صنصنطامن ک او منوا .5 


۲ پژوهش‌نامه کتابداری و اطلاع رسانی؛ دانشگاه فردوسی مشهد سال ۶ شماره ۰۱ بهار و تابستان ۱۳۹۵ 


واژه در بافت و زمینه‌ای که در آن رخ می‌دهد. پرداختند. نتایج نشان داد واژه‌ای مهم است که در یک 
حوزه معنای تخصصی داشته باشد و در تعداد مدارک اندکی رخ دهد. به عبارت دیگر واژه تخصصی در 
متن آنتروپی پایینی دارد. درنهایت می‌توان به پژوهش کیریو" (۲۰۰۹) اشاره کرد که او نیز مشابه 
پژوهش‌های قبل» اختصاصی بودن. بار اطلاعاتی و محتوای اطلاعاتی واژه بر اساس آنتروپی را مورد 
بررسی قرار داد. او نشان داد به کار گیری مدل آنتروپی نتایج بسیار بهتری نسبت به روش‌های سنتی وزن 
دهی کلمات در پی دارد. 

گروه دیگری از مطالعات به بررسی بار اطلاعاتی واژه پرداختند. از جمله این پژوهش‌ها پژوهش 
مونتمورو و زانت" (۲۰۰۱) است که بیش از سایر پژوهش‌ها به مطالعه حاضر نزدیک و با آن همسو 
می‌باشد. پژوهشگران در مطالعه خود به تحلیل آماری کلمات در مجموعه متون ادبی انگلیسی پرداختند. 
نتایج نشان داد آنتروپی با افزایش تکرار کلمه افزایش می‌یابد به عبارتی» کلمات کمیاب آنتروپی بسیار 
پا درل کل روتهانتا کف (۲ هیا برش یال امعر نت وفویال ازشالن ۲۱۹۸۷ ۱۹/۵ بآ 
نتیجه که «جملات در میزان اطلاعاتی که انتقال می‌دهند متفاوت هستند»» دست یافت. 

تعبین واژگان بازدارنده نیز یکی از هدف‌های محاسبه بار اطلاعاتی واژه به حساب می‌آید. زو و 
همکازاتقی (۲۸۲۶)مدلی شعنی تفر نظربه اطلاعات به عظون مات ساهه-واز کان بازذارنده برای مرن 
چینی ارائه کردند. از دید گاه نظریه اطلاعات وا گان بازدارنده واژگانی هستند که اطلاعات کمی را انتقال 
می‌دهند. ارزش اطلاعاتی واژه ۱ توسط آنتروپی اندازه گیری می‌شود. احتمال ,۳ فراوانی آن در مد رکث 


تقسیم بر تعداد کل واژگان در مدرک 1 است. بنابراین» ارزش آنتروپی (77) برای واژه ۷ به صورت 


زیر محاسبه گردید: 
1 1<1 
(ج) 8 :1 ۳1 - (رس) ۱ 
۷ 


زرا 


پژوهش‌هایی که به طور مستقیم به اندازه گیری «آنتروپی واژه» پرداخته‌اند در زبان فارسی چندان 


پرشمار نیستند. آنتروپی حروف فارسی در مطالعه میرزایی (۱۳۸۵) مورد توجه قرار گرفت. هدف این 


۱۳۹۵ 

عاع 22‏ ۱۷]0960 .2 
علقتصفطل ‏ 2۵عع06 .3 
فتاه[ )50۲6۵ ۷۷۵۱ ۰۲۳6 .4 
,1 1 700 .5 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ٩۳‏ 


مطالعه بررسی حشو در زبان فارسی با رویکرد نظریه اطلاعات بود. در نهایت این گونه نتبجه گیری شد که 
آنتزوی زبان فارسی روی حرف اول کلمه ۵ بت است و زوائد آن حدود ۰ درصد می‌باشد. بنابراین 
اختیار ما برای سخن گفتن ۲۰ درصد و احاطه زبان فارسی بر گفتار ما حدود ۸۰ درصد است. 

مطالعه بر نرخ آنتروپی زبان فارسی در پژوهش هاشمی و ساوجی (۱۳۸۶) نیز صورت پذیرفت. با 
استفاده از نتایج به دست آمده از مدل‌سازی متن فارسی و انگلیسی مشخص شد نرخ آنتروپی متن فارسی 
بالاتز از متن انکلستی یقن تتیجه فابلیت: ففردم. بلانزی متخ فازسی. کمقر او ستن انکلیشی ات در 
پخوهشی فاد کر شیم اشاودای هه بار اطااغای تفه اس کر ای که صوازی ی و غاه. ۱9/۸ 
در مطالعه خود به اندازه گیری بار اطلاعاتی هر حرف و تر کیباتی از چند حرف پرداخته و سپس این میزان 
اطلاعات را با زبان انگلیسی مقایسه نمودند. در نهایت چنین استنتاج شد که وقتی ارزش " (طول کلمه) 
افزایش می‌یابد. آنتروپی کاهش می‌یابد. 

با نگاهی به مطالعات مربوط به آنتروپی واژه و بار اطلاعاتی آن می‌توان دریافت که هدف عمده 
این پژوهش‌ها شناسایی واژه‌های عمومی و احتصاصی. واژگان بازدارنده (غیرمجاز) و تعیین رابطه بار 
اطلاعاتی واژه با ویژگی‌های آن از جمله طول واژه فراوانی و ... است؛ البته قابل ذکر است که این اهداف 
جملگی. بر بازیایی اطلاعات بهینه تأکید دارند. البته بررسی بار اطلاعاتی واژه. صرف نظر از هدف آن. 
موضوعی بود که در پژوهش‌های انجام شده در ایران به چشم نخورد و به نظر می‌رسد تنهاء آنتروپی به 
عنوان کلیتی در ارتباط با زبان مورد توجه قرار گرفته است. درحالی که بازیابی اطلاعات و نمایه‌سازی 
کار آمد. به انجام مطالعات گسترده‌تر و دقیق‌تری بر بار اطلاعاتی واژه متکی است. 


روش‌شناسی پژوهش 
۲ ۳ ۳ 1 ۰ ی ‌ ِ ۳ 2 
این پژوهش با روش تحلیل محتوا انجام پدیرفت. ویر (۱۹۹۰) تحلیل محتوا را روش تحقیقی 
قاعده‌مند به منظور تحلیل اطلاعات متنی طبق یکك روش استاندارد و تعربف شده معرفی می‌نماید که به 
محقق اجازه می‌دهد تا براساس این اطلاعات نتیجه گیری کند. رویکردهای کمی تحلیل متن با استفاده از 
روش‌های آماری و ریاضی صورت می‌پذیرد و از آنجا که هدف این پژوهش استفاده از شاخص آنتروپی 


1. ۲۱6۵۵21, ۸۱: 6 ۵ 
2. ۵۲ 
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جامعه آماری این پژوهش مقالات مندرج در آخرین شماره منتشر شده در مجلات علمی- 
پژوهشی حوزه‌های ادبیات و علوم انسانی» علوم پایه» فنتی و مهندسی» و کشاورزی است. این مجلات که از 
فهرست نشریات مورد تائید وزارت علوم» تحقیقات و فناوری در سال ۱۳۸۸ استخراج شدء شامل ۲۶۱ 
فان فلا ور ها مر زور ات تاه معا سای هدن آ شم ساره این اف ماود ۲۶۵۰ 
مقاله بود که از این تعداد مقاله تنها عناوینی مورد توجه قرار گرفت که به صورت الکترونیکی در دسترس 
بودند. به این صورت تعداد ۸۳ مجله و ۷۵۲ مقاله در حوزه علوم انسانی» ۲۲ مجله و ۱۷۰ مقاله در حوزه 
فنی و مهندسیء ۳۸ مجله و ۴۹۵ مقاله در حوزه کشاورزی و منابع طبیعی و ٩‏ مجله و ۹۸ مقاله در حوزه 
علوم پایه به عنوان جامعه آماری پژوهش مورد توجه قرار گرفت سپس با استفاده از فرمول زیر تعداد 
مقالاتی که باید در هر حوزه مورد بررسی قرار گیرند محاسبه شد: 

حجم جامعه آن حوزه 


جم نمونه اس 2 تعداد مقالات هر حوزه 


نتایج حاصل از اين معادله تعیین کرد که تعداد ۱۵۴ مقاله در حوزه علوم انسانیء ۳۵ مقاله در حوزه 
فنی و مهندسی ۱۰۱ مقاله در حوزه کشاورزی و منابع طبیعی» و ۲۰ مقاله در حوزه علوم پایه باید مورد 
بررسی قراز گيرند. با توجه به لزوم مقایسه متون در حوزه‌های مختلف و به کارگیری روش‌های آماری؛ 
حجم نمونه در حوزه علوم پایه نیز به ۳۰ عنوان افزایش یافت. شناسایی این مقالات از میان کل تعداد 
مقالات در هر حوزه به صورت تصادفی ساده انجام پذیرفت. قابل ذکر است در فرضیاتی که در سطح مقاله 
با آ رون می شا نها ازده عزسد: بالات یی ۰ ۳۲نقاله استاده مه وا تاد زرد رت صتادی 


ساده انتخاب شدند. 


کردآوری داده‌ها 
به منظور تحلیل متون مورد مطالعه ابتدا متن الکترونیکی متون به قالب ۷۵۲0 تبدیل و در اين 
محیط نرم‌افزاری تحلیل و پردازش واژگان امکان‌پذیر شد. 
پس از تهیه متون الکترونیکی, واژگان تفکیک گردید. تفکیک واژگان در دو مرحله صورت 
پذبرفت: 
اول واژگان هر متن از نظر شیوه نگارش مورد ویرایش قرار گرفت. در این مرحله براساس آئین 


نگارش زبان فارسی» واژگان ساده و مر کب تشخیص داده شده و متمایز شدند. معیارهای مورد 
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استفاده در این مرحله معیارهای مورد استفاده در پژوهش‌های پیشین (داورپناه و بلندیان» ۱۳۸۶؛ 

سنجی و داورپناه» ۱۳۸۸) و قواعد نگارش متون فارسی ( وحیدیان کامیار ۱۳۷۹) است. 
۲ _ در مرحله دوم متن مورد نظر را در محیط نرم‌افزاری070 ۲۷ و با استفاده از گزینه 1۵018 به 

جدول تبدیل شد. 

پس از تفکیک واژگان مقالات. برای هر مقاله یک جدول با چند ستون طراحی گردید. ستون اول 
مربوط به فراوانی واژه» ستون دوم طول واژه ستون سوم حالات ممکنء ستون چهارم احتمال رخداد واژه و 
ستون پنجم آنتروپی بود. شمارش فراوانی واژگان به منظور محاسبه احتمال رخداد آن لازم است. تعداد 
کل واژه‌های هر مقاله و طول واژه در نوار وضعیت با استفاده از فعال نمودن قابلیت 0006 ۷۷0۲0 قابل 
مشاهده است. حالات ممکن یک واژه» شمارش یک واژه با کلیه کلمه‌هایهم خانواده و هم‌ريشه بود. 


آنتروپی واژه نیز به منظور برآورد باراطلاعاتی واژ گان مورد توجه قرار گرفت. 


یافته‌های پژوهش 

با استفاده از داده‌های گردآوری شده فرضیات پژوهش مورد بررسی قرار گرفت که توضیحات آن 
ذیل فرضیات ارائه می‌شود: 

فرضیه شماره ۱. میزان بار اطلاعاتی واژه با احتمال رخداد آن رابطه‌ای معکوس دارد. 

هدف از طرح این فرضیه بررسی رابطه بین احتمال رخداد یک واژه در یک متن و میزان اطلاعات 
آن است. به این صورت که واژه‌ای با احتمال وقوع مشخص نسبت به سایر واژه‌هاه بار اطلاعاتی کمتر یا 
بیشتری خواهد داشت. متغیرهای مورد بررسی در این فرضیه شامل احتمال رخداد (,۳) و بار اطلاعاتی 
است. به منظور بررسی بار اطلاعاتی واژگان در اين پژوهش از مفهوم کمیت آنتروپی استفاده گردید. از 
آنجا که رابطه آنتروپی و اطلاعات یک رابطه معکوس می‌باشد آنتروپی بالای هر واژه نشانگر بار اطلاعاتی 
اندکک آن است. پس از ویرایش متون» شمارش واژه‌های هر مقاله و محاسبه فراوانی (:8)» احتمال رخداد 
تک تک واژه‌ها محاسبه گردید به این صورت که فراوانی و تعداد تکرار یک واژه در یک مقاله به تعداد 
کل واژگان آن مقاله (2۷) تقسیم شد: 

نم 

داده‌های مربوط به هر مقاله شامل فراوانی واژه وارد برنامه اکسل شد و سپس با استفاده از نرم‌افزار 

آماری 8۳55 احتمال رخداد» لگاریتم احتمال رخداد و حاصل ضرب این دو کمیت محاسبه و طبق معادله 
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زیر آنتروپی واژه به دست آمد: 
( 100۳۴( ۳- < ۲ 

در مرحله آزمون فرض به منظور بررسی این رابطه از آزمون همبستکگی پیرسون استفاده شد. 
ضریب همبستگی نشانه وجود ارتباط بین دو متغیر است. قابل ذکر است که هرچه ارتباط دو متغیر شدید 
باشد مقدار ضریب به ۱+ و ۱- نزدیک‌تر خواهد بود و با کاهش ارتباط بین دو متغیر مقدار ضریب به صفر 

همان‌طور که در جدول شماره ۱ مشاهده می‌شود مقدار ۳ در همه مقالات کمتر از ۰/۳۵ است 
بنابراین فرض آماری رد و فرض پژوهش پذیرفته می‌شود. به این معنی که میزان بار اطلاعاتی واژه متن با 
احتمال رخداد آن رابطه دارد. از طرفی مقدار ضریب همبستگی پیرسون نزدیکک به ۱ و علامت آن مثیت 
است که نشان‌دهنده همیسگی بالا میان دونمتغیر استمال رخداد و آنتزونی می‌باشد. 


جدول شماره ۱. بررسی ضریب همبستگی آنتروبی واژه با احتمال رخداد 


ردیف کد مقاله ضریب همبستگی (۵2-021160) .عز5 تعداد واژه 
۱ ۳ ۰۹۸۳۴ ۰ ۹۳۹ 
۳۲ ۴ 2 ۰ ۱۱۹۳ 
۳ 2 ۰۹۷۳ ۰ ۸۳ 
۴ ۷ ۰۹۷۴ ۰ ۸۵۵ 
۵ ۱۰ ۰۹۳۷ ۰ ۷۳۰ 
7 ۱۷ ۹۸۲ ۱ 5 
۷ ۳۰ ۰/۹۷۹ ۰ ۸0۸ 
۸ ۳۱ ۰۹۸۹۲ ۰ ۱۵۶۶ 
۹ ۲۳ ۹۷۴ ۰ 2۳۹ 
۳ ۳۷ ۳۳ ۰ ۹ 
۱۱ ۳۸ ۰/۹۳۸ ۰ ۶۸۶ 
۷ ۳۰ /۰/۹۳ ۰ ۱۳۳۴ 
1۳ ۳۳ ۰/۹4 ۰ ۳۸۲ 
۴ ۳۵ ۰/۹4 ۰ 92۴ 
۱۵ ۴۴ ۰/۹۷ ۰ ۱۳۳۴ 
۱۶ ۴۸ ۰/۹4۰ ۰ ۱۶۱۵ 
۱۷ ۴۹ ۰/۹۷۹ ۰ ۷۲ 
۱/۸ ۵۲ ۰۹۳ ۰ ۸۵۲ 
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۹ ۵۳ ۷ ۰ ۵۴ 
۲.۰ 2۴ ۰/۹۸ ۰ 2۹۳ 
۳۱ ۷۳ ۹۶۷ ۰ 2۸۸ 
۳۲ ۷۸ ۰/۹۸۱ ۰ ۷۹ 
۲۳ ۸۹ ۰/۹۶۶ ۰ ۱2۴۲ 
۲۴ ۹۲ ۰۹۷۹ ۰ نش 
۲۵ ۹۶ ۰۹۷۹ ۰ ۴ 
۳۶ ۱.۰ ۰۷۶ 1 ۸/۸ 
1 ۱۸ ۹۶۹ ۱ ۱۸۳۴ 
۳۸ ۱۱۰ ۹۶۷ ۰ ۱۹۴ 
۲۳۹ ۱۳۸ ۹۸۴ ۰ ۱۳۹۵۶ 
۳۰ ۱۳۳ ۰/۹۸ ۰ ۸۶۱ 
۳۱ ۱۵۰ ۰/۹۶۵ ۰ ۱2۷۲ 
۳۲ ۱۴ ۹۸۷ ۰ ۱۳۳۹ 


فر ضیه شماره ۲. هرچه میزان آنتروپی متن بیشتر باشد میزان حضور اطلاعات در متن کمتر است. 

همان‌طرن که پیش آانق دگر‌شله آلتروین کمیتی. قانل_مخاسه یرای هی واخت زبانی است: 
آنتروپی متن برابر با مجموع آنتروپی واژگان آن متن است. به اين ترتیب برای هر مقاله عددی مثبت 
نشانگر آنتروپی آن مقاله به دست آوردیم. به منظور بررسی میزان حضور اطلاعات در متن کلمات پربار و 
کم‌بار اطلاعاتی مورد توجه قرار گرفتند. شناسایی این کلمات به این صورت تحقق یافت که ابتدا واژگان 
هر مقاله به ترتیب آنتروپی ( از بزرگ‌ترین به کوچک‌ترین) مرتب شدند سپس با توجه به میانگین 
آنتروپی در هر مقاله دو طیف واژه شناسایی گردید. واژگان کم‌بار همان واژگانی بودند که به واسطه عدد 
آنتروپی بزرگ در ردیف‌های بالای جدول قرار گرفتند. اين واژگان بزرگ‌ترین فراوانی را نیز دارا بودند. 
پس از آن واژگانی که با آنتروپی و فراوانی کم در زیر میانگین قرار گرفتند. به عنوان واژگان پربار در 
نظر گرفته شدند. جدول شماره ۲ مقایسه آنتروپی مقاله و تعداد واژگان پر بار و کم بار اطلاعاتی را نشان 


می‌دهد: 


۹۸ پژوهش نامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد 


ردیف 


شال: اوه آعبقان اسان ۱۳۹۵ 


جدول شماره ۲. میزان حضور اطلاعات در متن 


آنتروپی 


متن 
۸,۳۳۸" 
۱۳۴۷۳۹" 
3-۶ 
2(۷ 
2 
3-۷ 
۱/۸۵ 
۸-۱ 
رازه۱۵ 
3-۷ 
۷/۹۸۹/۳ 
۱-۳۳ 
رفرس(/۱2 
۱۳۹۸( 
۱-۰۳۵ 
۸ 
۸/۵۹4 
۱/۹۳۴" 
۱//۸.," 
۱2 
۱۷/۸۶۹۶ 
اف رفن 
۸-۱ 
1-۶ 
۳۳۷( 


"1۴۵ 


پایین 
میانگین 


فراوانی 
وا گان 
کم‌بار 
۱۹ 
۱۹۵۳۷ 
۴ 
۱ 
۷ 
۷" 
۹/۹ 
۰۱/5/۵۵ 
1,۹۳ 
۵۸ 
۱۳۶۸ 
9 
۳ 
۱/۵۶۶۴,* 
۷۰۰۶۹ 
۸ ۱۸۵ 
۱۳۰۳2۶ 
۱-۶۶۹۵ 
۱ 
۱ 
۱/۸۷۵ 
۴۲ 
۹ 
و 
۱/۶۳۳۵ 


۰/۶۹۸ 


فراوانی 
واژگان 
پربار 
و۸ 3۸۵ 
۱/۱۶۴ 
۱۰۶ 
۶۹ 
۱۵ 
۳,۳ 
اقطم و۸ 
۰/۵۴۸۵ 
۶-۵۸ 
۸۹۴۲ 
۱-۹۳۲ 
۶ ۱ 
۷ 
۱-۸-۰۳۳۶ 
۱-۹-۳۱ 
۱-۶۸۸۲ 
۹۶۴ 
۳۸۵۰۵ 
۹ 
۹ 
۸۱۱۰۳۵ 
۱۱۳۳۶۵۸ 
۴۱ 
۱۳۰۳۷ 
۳۱۶۵ 


*)۱۳-:«۰«/۲ 


نسبت کم- 


بار به پربار 


۱۳۳ 
۱/۸۸۷۲ 
و 
۱/۷۷۵۲ 
۱۹۳۳۶ 
1۱۳۸۹۴ 
1۱-۵۲۳ 
۱/۹۰۳۱ 
۳/۴۱۵۵ 
1۱/۹۷/۹ 
۱۲ 
۱۶ 
1۱۴ 
۱/۶۶ 
۱۳۳۵۲ 
1۱-۴ 
۱۶۷۸ 
۳۴ 
۱۸۲ 
۱/۳/۴۸ 
1۱۱۶ 
۳/۱۳۵۲ 
۱/۷ 
۱۱ 
۱۶۰۵ 


1۱۳۳۵۳۴ 
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۱۳۹۹ ۰/۲۵۲۷۱۱ ۹ آژدتی‎ ۶۰۶۵ ۶ "۱/۰۵۵ ۰/۰۰۴۸ ۸ ۳۷ 
(۱ ۶  (  ۴ ۱۳۳۱ ۱۳۱ ۳۳۳۲ "۰-۴ 2 ۱۱۰ ۳/۸ 
۱۱/۸ (۱ ( ۲ ۱۳۳۶ ۳۳۳۶ ۳۵۵۲ "1۹ ۰/۰۰۶۹ ۱۳/۸ ۳۹ 
وال۱۵‎ ۰/۲۸۶۲۸۶ ۱/۴ ۷۸۷ ۱۹۶۲ ۳۷۴۳۹ 1۰۳۹4 ۰/۰۰۹۸ ۴ ۳۰ 


۳۱ ۱۵۰ ۱۰۷" ۸۸۳/۳۳4۰ ۴" ۳۵۴۸ ۱۳۹۶ او ۸ ۰۱۳۹۶۵۹ ۱۳۶۸ 


۳۲ ۱۵۴ ۰۱۷ ۸۸۵" ۳۷۶۳ ۱۳۶۰۰ ۱۱۶۳ | ۳۰۶ ۱۳۸۳۳۵۵۹۲ 
به منظور آزمون فرض فوق ابتدا نسبت واژگانی که آنتروپی آن‌ها بالای میانگین بود به تعداد کل 
واژگان برای هر مقاله محاسبه شد. این محاسبه برای تعداد واژگانی که آنتروپی آن‌ها پایین ميانگین بود نیز 

جدول شماره ۳. اختلاف معناداری تعداد وا ژگان بالا و پایین میانگین 


ضریب همبستگی (21160)-2) ٩12.‏ ۱ 
(ب ۰ ۳۲ 


نتایج آزمون نشان داد که بین تعداد واژگان بالای میانگین (نمایانگر واژگان کم بار اطلاعاتی) و 
واژگان پایین میانگین (نمایانگر واژگان پربار اطلاعاتی) در همه مقالات رابطه معنادار معکوسی وجود 
دارد. مرحله دوم آزمون فرض,» بررسی رابطه این دو سطح از متغیر میزان اطلاعات متن با متغیر آنتروپی 
متن بود. به این منظور از آزمون رگرسیون چند متفیری " استفاده شد. جدول شماره ۴ حاصل انجام این 


1 ۰ ۰ ۰ ۲ 
جدول شماره ۴. رابطه اطلاعات متن با آنترویی 


و ضرایب غیراستاندارد | ضرایب استاندارد 7 
1 ۲ 960 ماه 

اصعاعده6)) ۲ | ۰/۹۴۳ ۸۷/۳۷ ۰ 

بالای میانگین ۵۶ | ۰/۴۰۶ ۱/۲۵ ۷/۷۵۷ ۰ 

پایین میانگین ۰ 12۳5 ۲ - ۳ ۰/۶۶۱ 


ارزش۴ به دست آمده در دو سطح واژگان بالا و پایین میانگین آنتروپی» نشان‌دهنده ارتباط 
معنی‌دار بین اطلاعات متن و آنتروپی آن در سطح واژگان بالای ميانگین است. این ارتباط در سطح 
واژگان پایین میانگین معنادار نیست. درواقع آنتروپی متن با تعداد واژگان کم‌بار اطلاعاتی رابطه دارد و 


می‌توان گفت هرچه تعداد اين واژگان بیشتر باشد آنتروپی متن نیز بالاتر است. 


1. 1۷۲۵۱01۱6 
2.5 


۰ پژوهش نامه کتابداری و اطلاع رسانی» دانشگاه فردوسی مشهد سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ 


فرضیه شماره ۳. هرچه تعداد حالات ممکن یک واژه کمتر باشد بار اطلاعاتی آن واژه بیشتر است. 

تعداد حالات ممکن یک واژه» شکل‌های مختلف ظهور یک واژه در متن اعم از حالات اسمی؛ 
فعلی» قیدی و ... است. به طور مثال حالات ممکن واژه تدارک. در یک مقاله شامل واژه‌های تدارکک. 
تدا رک دیدن تدا رکات. تدا رک دید. خواهد بود. پس از شمارش حالات ممکن هر واژه یک ستون به 
آن اختصاص یافت و سپس فراوانی کلیه حالات ممکن یک واژه تجمیع گردید. به اين ترتیب واژه‌ای با ۶ 
حالت ممکن تنها به یک شکل در جدول ظاهر می‌شود. در حالی که فراوانی سایر حالات به فراوانی آن 
افزوده گشته است. در مرحله بعد واژگان غیرمجاز از جداول حذف شد. چشم‌پوشی از واژگان غیرمجاز به 
این دلیل انجام شد که اين واژگان بیشترین فراوانی را دارا بوده در عین حال حالات ممکن متعددی ندارند 
و این امر می‌توانست صحت آزمون همبستگی را تحت الشعاع قرار دهد. پس از این مرحله به بررسی رابطه 
این ستون با ستون احتمال رخداد پرداختیم. 

جدول شماره ۵. بررسی ضریب همبستگی آنتروپی واژه با حالات ممکن آن 


ردیف کد مقاله ضریب همبستکی (21160)-2) .5 تعداد واژه 
۱ ۳ و( ۰ ۹۳۹ 
۲ ۴ ۰,۴ ۰ ۱1۹۲ 
۳ ۶ ۰/۳۷۸ ۰ ۸۷۳ 
۴ ۷ ۸۶ ۰ ۸۵۵ 
۵ ۷ ۰5۹ ۱ و 
۶ ۱۷ زو ۱ 5.۰ 
۷ ۲۰ ۰/۸ ۰ ۵۸۵ 
۸ ۳۱ ۰-۵۶۲ ۰ ۱3۶۶ 
۹ ۲۳ ۰۳۳۸ ۰ 5۹ 
۳ ۲۷ ۰۴۷ : ۶۹ 
۱ ۳۸ ۰۹۳ ۰ ۶۸۶ 
۲" ۳۰ ۷ ۰ ۱۳۴ 
۳ ۳۳ ۶۱ ۰ ۴۸۲ 
۴ ۳۵ ۰9.۳ ۰ 52۴ 
۱۵ ۴ ۱ ۰ ۱۴ 
۶ ۴۸ ۰۳۴۲ ۰ 1۶1۵ 
۷ ۴۹ ۰/2۶۸ : ۷۹ 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ۱۰۱ 


ردیف کد مقاله ضریب همبستگی (2-121160) .عن5 تعداد واژه 
۱۸ ۵۲ ۴ ۰ ۸۵۲ 
۹ ۵۳ ۳۸۹ ۰ ۵۴ 
۲.۰ ۴ ۰-۴۹ ۰ 2۹۳ 
۳۱ ۷۳ ۶۱ ۰ ۶2۸۸ 
۲۲ ۷۸ ۳۸۷ ۰ ۷۵۹ 
۲۳ ۸ ۰/۵۵۵ ۰ ۱5۴۲ 
۳۴ ۹ ۰/۵۹ : 2۳۷ 
۲۵ ۹۶ ۰/۵۸۶ ۰ 2۷۴ 
۶ ۱۰ ۰-2۲ ۱ مه 
۳۷ ۱۸ ۰/۴۵۵ ۰ ۱۸۳۴ 
۲۳۸ ۱۹۰ و ۰ ۱۹۴ 
۲۹ ۱۳۸ ۰/۱۸ ۰ ۱۳۹۵۶ 
۳۰ ۱۳۳ 9۳ ۰ ۸۶۱ 
۳۱ ۱2۰ ۰/۴۹۵ ۰ ۱2۷۲ 
۳۲ ۱2۴ ۴۷ ۰ ۱۳۳۹ 


با توجه به مقدار ۴ به دست آمده از تکک تک مقالات فرض پژوهش پذیرفته می‌شود: 
5 ۳-۷216 < (2-121160).ع1 

بررسی جدول شماره ۵نشان‌دهنده پذیرش فرض آزمون است. طبق یافته‌هایاین جدول ارتباط 
معنی‌داری میان تعداد حالات ممکن و آنتروپی وجود دارد. ضریب همبستگی پیرسون ۰/۳ تا ۱ می‌باشد و 
این مطلب نشان‌دهنده همبستگی متوسط تا قوی است. 

فرضیه شماره ۴. بین طول کلمه و بار اطلاعاتی آن رابطه وجود دارد. 

هدف از طرح این فرضیه بررسی این موضوع است که آیا واژگان با طول‌های متفاوت. بار 
اطلاعاتی یکسانی دارند یا نه؟ به عبارت دیگر آیا تکک تک واژگان صرف‌نظر از متنی که در آن ظاهر 
می‌شوند به میزان یکسانی اطلاعات منتقل می‌نمایند و آنتروپی مشابهی دارند. این فرضیه نیز باید در سطح 
تک تک واژه‌های مقالات نمونه بررسیمی‌شد. متغیرهای مورد بررسی در این فرضیه طول کلمه و آنتروپی 
آن می‌باشد. طول کلمه همان تعداد کاراکترهای یک واژه است که پس از انجام عملیات ویرایش و 
آماده‌سازی متون به صورت جداول با استفاده از قابلیت 001 ۷۷۵۲۵ محاسبه و در ستونی جداگانه در 


صفحه اکسل به نمایش درآمد. آنتروپی کلیه واژگان نیز همان‌گونه که قبلاً توضیح داده شد محاسبه 


۲ پژوهش‌نامه کتابداری و اطلاع رسانی؛ دانشگاه فردوسی مشهد 


۳۷ 


۳/۸ 


کد مقاله 
۳ 
۴ 


۶ 


ضریب همبستگی 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ 


جدول شماره ۶ رابطه آنتروپی واژه با طول آن 


(21160)-2) .ور 


۰ 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ۱۰۳ 


۱۳۵۶ ۰ ۰/۲ ۱۳۸ ۲۹ 
۸۶۱ ۰ ۰-۱۹۷ ۱۳۳ ۳۰ 
۱۷۲ ۰ ۰-۱۹۳ ۱۵۰ ۳۱ 
۱۳۳۹ ۰ ۳۹ ۱۴ ۳ 


با توجه به جدول شماره ۶ در تمامی مقالات موردبررسی ارزش ۳ (.518) کوچک‌تر از ۰/۰۵ است 
که این مطلب بیانگر وجود رابطه میان طول کلمه و بار اطلاعاتی آن می‌باشد. ضریب همبستگی به دست 
آمده نیز در هر ۳۲ نمونه مورد بررسی عددی منفی است که رابطه‌ای معکوس بین آنتروپی واژه و طول آن 
را نشان می‌دهد. به اين ترتیب» هرچه واژه‌ای کوتاه‌تر باشد آنتروپی واژه بیشتر و بنابراین اطلاعات واژه 
کمتر خواهد بود. 

فرضیه شماره ۵. مقدار بار اطلاعاتی متون در حوزه‌های مختلف علمی متفاوت می‌باشد. 

هدف از مطرح نمودن فرضیه فوق بررسی این موضوع است که آیا بافت‌های واژگانی با 
درون‌مایه متفاوت. میزان اطلاعات یکسانی منتقل می‌سازند یا برخحی متون با موضوعی خاص نسبت به متون 
دیگر با موضوعی متفاوت اطلاعات بیشتری دارا هستند؟همان‌طور که پیش از این گفته شد کمیت آنترویی 
قابل محاسبه برای کلیه واحدهای زبانی است؛ پس از محاسبه آنتروپی تکک تک واژگان یک مقاله با 
استفاده از فرمول می‌توان آنتروپی متن را قابل محاسبه ساخت: 

][ < - (09۳0۵ 

علامت سیگما (2) در فرمول نشان‌دهنده این است که آنتروپی متن حاصل جمع آنتروپی کلیه 
واژگان آن متن است. به اين ترتیب برای هر مقاله یک عدد مثبت نشانگر آنتروپی متن به دست می‌آید. 
بدیهی است که متغیر مورد بررسی در اين فرضیه آنتروپی 11 هر مقاله است. سطح مورد آزمون نیز چهار 
حوزه است که میانگین آنتروپی هر حوزه در جدول شماره ۷ ارائه شده است. قابل ذکر است که سطح 
مورد توجه در این فرضیه حوزه است. به این ترتیب ۳۲۰ مقاله اولیه مورد بررسی قرار گرفتند. 

جدول شماره ۷. میانگین آنتروپی در حوزه‌های علمی 


ردیف حوزه علمیی تعداد مقالات میانکین آنتروبی 
۱ ادبیات و علوم انسانی ۱۵۴ ۸/۴۵ 
۲ علوم پایه ۳۰ ۷/۹۸۹ 
۳ فنی و مهندسی ۳۵ ۱-۶۴ 
۴ کشاورزی ۱۰۱ ۱/۹۳۳ 


۴ پژوهش‌نامه کتابداری و اطلاع رسانی؛ دانشگاه فردوسی مشهد سال ۶ شماره ۰۱ بهار و تابستان ۱۳۹۵ 


به منظور بررسی این فرضیه از آزمون تحلیل واریانس " یک طرفه استفاده گردید. از این آزمون در 
مواقعی استفاده می‌شود که آمار گر قصد دارد میانگین‌های سه جامعه یا بیشتر را با یکدیگر مقایسه کند یا به 
برآورد و مقایسه میانگین یک صفت در چند جامعه و همچنین وجود با عدم وجود تفاوت معنی‌دار در بین 
نمونه‌های یکك جامعه بپردازد ( هویداء ۱۳۷۸). با توجه به اينکه هدف از اين فرضیه بررسی آنتروپی در 
چهار حوزه ادبیات و علوم انسانی» فنی و مهندسی. علوم پایه و کشاورزی می‌باشد بنابراین فرضیه با آزمون 
تحلیل واریانس پررسی شد. 
جدول شماره ۸. آزمون تحلیل واریانس میانکین آنتروپی حوزه‌های علمی 


۲( مجموع مربعات خطا ۸ ۳ بوک 
بین گروهی ۱۳/9۹۳ ۳ ۱/۸۸ ۰ 
درون گروهی 1۱۹/۴۶ ۳۶ 


با توجه به جدول حاصل از آزمون ۵0۷۸ ۳-۷۵106 از ۰/۰۵ کوچک‌تر است و فرض 
پژوهش پذیرفته می‌شود (۳-۷۵[06-0.000>0.05 -.ع[)؛ همچنین نسبت ] در صورتی که مساوی با 
کمتر از یک باشد نتیجه معنی‌دار نیست و بالعکس هرچه بزرگ‌تر باشد اثر متغیر مستقل بر داده‌ها بیشتر 
است. البته میزان بزرگی نسبت ۳ به حدی که بتوانیم آن را معنادار بدانیم بستگی به ارزش ۳ دارد و باید 
کمتر از ۰/۰۵ باشد تا بتوان ۳ را معنادار دانست (بریس؛ کمپ و سنلگار .)۱۳٩۱‏ با این شرح نسبت آبین 
گروه‌ها نشانگر معناداری اختلاف میان آنتروپی حوزه‌هاست. به منظور بررسی رابطه بین حوزه‌ها به صورت 


دو به دو از آزمون تعفیبی دص[ استفاده شد. حدول شماره ٩‏ نشان‌دهنده میزان اختلاف در اطلاعات چهار 


حوزه علمی آمبنتار 
جدول شماره .٩‏ اختلاف آنتروبی در حوزه‌های علمی 
حوزه اختلاف میانگین | انحراف استاندارد ۹ 
علوم پایه ۴/,-++*آ ۸۱۹۳۲ ۰/۸ 
ادبیات و علوم 
ه یی ۳ )۱ ۸۱۸۸ ۰ 
تشن 
کشاورزی و 2 ۰ 
ادییات و علوم انسانی ۷۴« <,-*آ1 ۸۱۹۳۲۵ ۰/۱۸ 
علوم پایه فتلتی ۳۹۹ 1-۱۱۳۷ ۰/۱ 
کشاورزی ۰/۹۹ 1-۱۰۶۳ ۴۷ 
متسین ادییات و علوم انسانی ۱-۳ ۸۱۸۸ ۰ 


(۸۵ ۵۲0۵۲۷ ععصهلته ۷ ۵۶ متورراقمم .1 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ۱۰۵ 


علوم پایه ۰/۳۹۶۹ ۱۳۷ 12 
کشاورزی ۰۳۳۳۷ ۰۱۱۹۰۲ ۰/۸۱ 

ادبیات و علوم انسانی و ۰1۳۹5۶ 
کشاورزی علوم پایه 1,۹۹ 1۱:۶۳ ۴۷ 
ای ۳۳۷ 1۱۹۲ ۰/۸۱ 


با بررسی ارزش ۳ حاصل مقایسه میانگین حوزه‌ها فرض پژوهش پذیرفته می‌شود. در نهایت 
می‌توان گفت که حوزه ادبیات و علوم انسانی با سه حوزه دیگر از نظر اطلاعاتی که منتقل می‌نماید 


بررسی آنتروپی و بار اطلاعاتی واژه در متون فارسی از چند جنبه در پژوهش حاضر مورد توجه 
قرار گرفت. اولین ویژ گی مورد مطالعه یک واژه در متن احتمال رخداد واژه و رابطه آن با میزان اطلاعات 
واژه بود. شانون به صراحت در نظریه معروف خود تعریف کرد که اطلاعات 1 در یک پیام به طور 
معکوس با احتمال آن رابطه معکوس دارد (2007 ,اع132711). نتایج حاصل از پژوهش‌های مختلف 
نشان‌دهنده رابطه معکوس باراطلاعاتی یک واژه با احتمال رخداد آن است. مکک‌کی ‏ (۲۰۰۳) محتوای 
اطلاعاتی ۲۷ رخداد ممکن را هنگامی که یک کارا کتر به طور تصادفی از متون انگلیسی انتخاب می‌شود؛ 
مورد محاسبه قرار داد. به این ترتیب محتوای اطلاعاتی رخداد حرف 2 برابر ۱۰.۴ و حرف ه برابر ۳۵ بیت 
است. در این رابطه احتمال رخداد با میزان اطلاعات شانون رابطه معکوس دارد. بدیهی است هر چه احتمال 
وقوع یک پیشامد بیشتر باشد آن پیشامد اطلاعات کمتری را انتقال می‌دهد و این نتیجه در آزمون رابطه بین 
دو متغیر آنتروپی و احتمال رخداد در پژوهش حاضر نیز به دست آمد. به اين معنا که واژه‌هایی که با 
نی ال موش اش نب پشیریی ال راد راد قفا فصو داش و گنک (۳:9۵) 
در پژوهش خود با بررسی هم وقوعی واژگان ( احتمال رخداد دو واژه با هم معتقدند یک واژه با قابلیت 
پیش‌بینیپذ بری بالاواژه‌ای است که با احتمال رخداد بالایی در متن ظاهر می‌شود. همان‌طور که گفته شد 
طبق اصول شانون واژه‌ای که پیش‌بینی‌پذبری زیادی دارد درحالی که ارو بالایی دارد اطلاعات اند کی 


خواهد داشت. بنابراین طبق رابطه سه مفهوم مذ کور خواهیم داشت: 


۵۲ .1 
۳0۵8 ک تمرف رطمووز۲ .2 
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پیش‌بینی پذیری زیاد + احتمال رخداد بالا +* افزايش آنتروپی + اطلاعات اند کك 

بنابر آنچه گفته شد میزان اطلاعات واژه با احتمال رخداد آن رابطه‌ای معکوس دارد. 

در فرضیه دوم پژوهش حاضر به میزان آنتروپی متن و رابطه آن با حضور اطلاعات در همان متن 
پرداختیم. همان گونه که در رابطه با آزمون فرض دوم پژوهش گفته شد. آنتروپی یک مجموعه حاصل 
مجموع آنتروپی تک تک اجزای آن مجموعه است. درواقع اگر آنتروپی معادل عدم وجود اطلاعات در 
یک سامانه باشد. بنابراین آنتروپی بالا نشان‌دهنده اطلاعات اند کک آن خواهد بود. آزمون فرض بین متغیر 
آنتروپی متن و اطلاعات آن نشان داد که آنتروپی متن با تعداد واژگان بالای ميانگین (واژگان کم‌بار) رابطه 
دارد؛درحالی که با تعداد واژگان پایین میانگین (واژگان پربار) این رابطه تأیید نشد. البته شناسایی واژه‌های 
پربار و کم بار اطلاعاتی متن نیازمند تعریف شاخص دقیق‌تر دیگری است؛ ولی با توجه به یافته‌هامی‌توان 
گفت آنتروپی متن تنها با واژگانی که به طور قطعی واژگان کم‌بار مقاله هستند رابطه داشت. 

بار اطلاعاتی واژه از جنبه تعداد حالات ممکن آن در متن نیز قابل بررسی است. هدف از بررسی 
رابطه تعداد حالات ممکن واژه و بار اطلاعاتی آن» بررسی این موضوع است که آیا واژه‌ای که به 
شکل‌های مختلف (واژه‌های هم‌خانواده و هم‌ریشه) در یک متن ظاهر می‌شود میزان اطلاعات بیشتری 
منتقل می‌نماید با خبر. بوه ووه و هاوی" (۲۰۰۸) در فرآیند ابهام‌زدایی معنایی از واژه به رابطه حالات 
مختلف یک واژه و آنتروپی اشاره کردند. به نظر آنان هرچقدر ابهام معنایی یک واژه بالا باشد و به عبارت 
بهتر واژه دارای معانی و اشکال متعددی باشد آنتروپی بالاتری برای آن واژه خواهيم داشت. همچنین بار 
اطلاعاتی آن واژه بیشتر است چرا که آن واژه غیرقابل پیش‌بینی‌تر است و محتوای اطلاعاتی بیشتری به 
همراه دارد. 

بررسی رابطه طول واژه و میزان اطلاعات آن نشان داد که هرچه یک واژه کوتاه‌تر باشد میزان 
اطلاعات کمتری نیز خواهد داشت. به این ترتیب رابطه آنترویی و طول واژه رابطه‌ای معکوس است. طبق 
نظریه شانون یک زبان کارآمد میزان اطلاعاتی نزدیک به ظرفیت کانال انتقال می‌دهد. به این ترتیب یکث 
رابطه غیرخطی بین منفی لگاریتم احتمال واژه و طول آن وجود دارد و اين رابطه همان فرمول آنتروپی 
کار ای سار نی ۱۱ توس ی مت اس خرن 
رابطه خطی بین طول واژه] و محتوای اطلاعاتی (1)0آن اشاره کردند. بنابر آنچه گفته شد نتیجه حاصل 
حکایت از وجود رابطه بین طول کلمه و بار اطلاعاتی آن داشت. 


۷ ۶ ۷۷۱۷ ,۷۷ .1 
صتاه۷ > مطمصمن .2 


سال ۶ شماره ۱ بهار و تابستان ۱۳۹۵ محاسبه بار اطلاعاتی متون علمی فارسی... ۱۰۷ 


درنهایت» نتایج محاسبه بار اطلاعاتی متون حوزه‌های علمی مختلف در چهار حوزه علمی ادبیات و 
علوم انسانی» علوم پایه فنی و مهندسی و کشاورزی نشان داد بيشترین آنتروپی و کمترین اطلاعات در 
حوزه علوم انسانی نسبت به سایر حوزه‌هامی‌باشد. پس از حوزه علوم انسانی» حوزه علوم پایه کشاورزی» و 
فنی و مهندسی به ترتیب از بالاترین آنتروپی تا کمترین میزان آن قرار می‌گيرند. این مسئله به دلیل وجود 
مقالات طولانی و پرتکرار حوزه علوم انسانی است. آنچه در مقالات این حوزه به چشم می‌خورد فراوانی 
قابل توجه واژگان و به دنبال آن احتمال رخداد بالا و بار اطلاعاتی اند ک واژه می‌باشد. ضمن اينکه با 
افزایش طول مقاله احتمال رخداد واژگان غیرمجاز نیز افزایش یافته و این خود عاملی در افزایش میانگین 
آنتروپی حوزه است. بنابراین می‌توان گفت بار اطلاعاتی واژه وابسته به متن است و مقدار اطلاعات متون 


در حوزه‌های مختلف علمی متفاوت می‌باشد. 
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